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Beschreibung 

Verfahren xind Vorrichtungen ziom Encodieren/Decodieren von 
strukturierten Dokumenten, insbesondere von XML-Dokumenten 

Die Erfindung betrifft Verfahren bzw. Vorrichtungen zum Enco- 
dieren von strukturierten Dokiamenten, insbesondere XML- 
Dokumenten, bei denen aus einem strukturierten Dokument in 
Abhangigkeit eines Schertias ein Bitstrom erzeugt wird und ein 
D Verfahren bzw. eine Vorrichtung zum Decodieren, bei denen aus 
einem Bitstrom in AbhSngigkeit eines Schemas ein strukturier- 
tes Dokiiment erzeugt wird. 

Im Rahmen der Arbeit am MPEG-7 Standard wurde ein Verfahren 
5 zur binaren Codierung von XML Daten entwickelt, das im fol- 
genden BiM-Verf ahren genannt wird und beispielsweise aus der 
VerSffentlichung ISO/IEC FDIS 15938-1 : 2001 (E) , "Information 
Technology - Multimedia Content Description Interface - Part 
1: Systems* bekannt ist. Dieses Verfahren verwendet XML Sche- 
0 ma Definitionen, die beim Encoder und Decoder vorliegen, bei- 
spielsweise das MPEG-7 schema, iim die Codes fur die einzelnen 
Datenelemente der XML Beschreibung zu generieren. Dieses Ver- 
fahren setzt voraus, dass dem Encoder und dem Decoder zumin- 
dest teilweise die selben Schemadef initionen vorliegen. Dies 
kann beispielsweise gewahrleistet werden, indem ein standar- 
disiertes XML Schema im Decoder fest eingebaut wird. AuSerdem 
besteht die Moglichkeit das Schema separat oder zusStzlich 
zum eigentlichen Dokument dem Decoder zu iibermitteln. Die 
Ubertragung des Schemas vom Encoder zum Decoder kann in tex- 
30 tueller Form durchgeftthrt werden, wobei eine Standard Text- 
kompression, wie z.B. ZIP, angewendet werden kann. 

Die der Erfindung zu Grunde liegende Aufgabe besteht nun dar- 
in, Verfahren bzw. Vorrichtungen derart anzugeben, dass die 
35 tteertragiang des Schemas besonders effizient erfolgt und dass 
die iibertragene Datenmenge und die Rechenlei stung am Decoder, 
die ftir die Erzeugung der Codetabellen aus dem Schema n5tig 
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ist, reduziert wird. AuSerdem soil die Konsistenz eines nicht 
vollstandig tibertragenen Schemas sichergestellt werden. 

Diese Aufgabe wird hinsichtlich des Encodiearverf ahrens durch 
die Merkmale des Patentanspruchs 1, hinsichtlich des Deco- 
dierverfahrens durch die Merkmale des Patentanspruchs 7, hin- 
sichtlich der Encodiervorrichtung durch die Merkmale des Pa- 
tentanspruchs 14 und hinsichtlich der Decodiervorrichtung 
durch die Merkmale des Patentanspruchs 15 erf indungsgemSfi ge- 
lost . 

Die weiteren AnsprUche betreffen vorteilhafte Ausgestaltungen 
der erfindungsgemaSen Verfahren bzw. Vdrrichtungen. 

Die Erfindung besteht im wesentlichen darin, mit einem Enco- 
dierverfahren aus einem Schema in Abh&ngigkeit eines Meta- 
schemas einen Bitstrom oder einen Teil eines Bitstromes zu 
erzeugen, wobei eine oder mehrere der folgenden Optimierungen 
durchgeftihrt werden: 

- Abspaltung von anonymous Types aus Elementdeklarationen und 
Attributdeklarationen, und Codierung als eigener Typ, dessen 
Typdefinition als Top-Level Element in der Schema Definition 
instantiiert ist, 

- Normalisierung der Syntax Trees auf Encoderseite, 

- Ersetzung der Zeichenketten von Typnamen 

- tJbertragung von Inf ormationen fur den Vererbungsba\am. 
Die Dekodierung berticksichtigt diese Optimierungen und er- 
zeugt umgekehrt aus dem Bitstrom ein Schema. 

Die Erfindung wird nachfolgend anhand von in den Zeichnungen 
dargestellten Ausfiihrungsbeispielen erlSutert. Dabei zeigt 

Figur 1 eine Prinzipdarstellung zu Eriauteriing der erfin- 
dungsgemaSen Encodierung/Decodierung , 



Figur 2 eine Darstellung zur Eriautenang der Details einer 
bevorzugten Aus fiihrxings form der Erfindung, 
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Figur 3 eine Darstell\ang zur ErlSuterung der Details einer 
weiteren bevorzugten Ausfuhrungsf orm der Erf indung 
und 

Figur 4 eine Prinzipdarstellung einer bevorzugten Ausfiih- 
rungsform eines erf indungsgemafien Decoders. 

Da XML Schemas ihrerseits XML Dokiomente sind, denen eine 
standardisierte Syntaxdef inition zugrunde liegt, naitilich ein 
sogenanntes "Schema for Schemas" (W3C Spezif ikation) , das 
quasi ein Metaschema darstellt, kann ein Schema ebenfalls mit 
dem oben genannten BiM-Verf ahren codiert und tibertragen wer- 
den. 

In Figur 1 ist eine Anordnung gezeigt, bei der, in einem 
ersten Schritt, mit einem BiM-Encodierverf ahren BiM-E aus 
einem XML-Schema XMLS in AbhSngigkeit eines Metaschemas SS 
einen Teil eines Bitstromes oder einen Bitstrom BSl erzeugt 
wird und bei der, in einem zweiten Schritt, mit dem selben 
BiM-Encodierverfahren BiM-E aus einem XML-Dokument XML in Ab- 
hangigkeit des Schemas XMLS ein weiterer Teil des Bitstromes 
Oder ein Bitstrom BS2 erzeugt wird sowie in umgekehrter Rich- 
tung mit einem BiM-Decodierverf ahren BiM-D aus den beiden 
Telle des Bitstromes oder aus den Bitstromen BSl und BS 2 ein 
XML Schema und das XML-Dokiament wiedergewonnen werden. 

In einer ersten bevorzugten Ausgestaltung der Erfind\ang wird 
eine Abspaltung von sogenannten „ anonymous Types" aus der E- 
lement- bzw. Attributdeklaration vorgenommen. 

Die tibertragung eines XML Dokxjments erfolgt beim BiM- 
Verfahren "depth first", der Vorgang der Schema Kompilierting 
am Decoder verlangt aber einen Aufbau "breadth first", wobei 
die diese Ausdriicke bspw. auf der Intemetseite 
http : / /www. generations . org/simple_search . shtml naher erlau- 
tert sind. Bei Gruppen wie Sequence oder Choice kann dies 



2002P11264 DE 



4 

durch einen kleinen Zwischenspeicher auf Decoderseite ausge- 
glichen werden, aber bei den "anonymous Types", die den Typ 
eines einzelnen Elements oder Attributs definieren kSnnen 
rechtfertigt der Aufwand eine Umstrukturierxing auf Encoder- 
seite: die anonymous Type Def initionen, im nachf olgenden Bei 
spiel mit ATO bezeiclmet, werden aus der Elementdeklaration 
des Elements " CurriculumVitae" herausgelost und erhalten ei 
nen Namen und/oder Code, der zur Ref erenzierung bei dem ent- 
sprechenden Element verwendet wird. 

Vorteilhafterweise wird hierdurch die Tiefe der Hierarchie 
der tibertragenen Typen reduziert, wodurch die Kompilierung 
des Schemas auf der Decoderseite vereinfacht wird. 



Beispiel: 

Schema vor der Umstrukturierung 



<coi(«)lexType name= " Per sonDescr ip tor " > 
<element name="CurriculimVitae"> 
<complexType> 

<element name="name" type=" string" /> 
<element name= "birthday" type="date" /> 

< / complexType> 
</element> 

<element name= "profession" type="prof Tp" /> 
< / complexType> 



Schema nach der Umstrukturierung 

<complexType name= " Per sonDescr iptor " > 

<element name="CurriculvimVitae'' type="ATO"/> 
<element name= "profession" type=''profTp" /> 

< / complexType> 
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<complexType name="ATO"> 

<element naine="naiue" type="string" /> 
<elenient name= "birthday" type="date" /> 

< / compl exType> 

In einer zweiten bevorzugten Ausgestaltung der Erfindung wird 
die Normalisierung der Syntax Trees, wie sie in BiM spezifi- 
ziert ist, auf der Encoderseite durchgef tihrt . 

Im BiM-Verfahren werden sogenannte ^Finite State Automatons'' 
die zur Dekodierung des Bitstroms verwendet werden aus Syntax 
Trees erzeugt, welche die Struktur des XML Schemas abbilden. 
Um die Codieref f izienz zu steigern entsprechen diese Syntax 
Trees nicht 1:1 den textuellen XML Def initionen, sondern es 
werden Normalisierungen vor genommen . Drei verschiedene Falle 
kOnnen hierbei auftreten: 

1, Vereinf achung einer Gruppe, die nur ein Element enthalt: 
Die Gruppe wird aufgelSst, und das enthaltene Element wird 
auf der Ebene der aufgelosten Gruppe in das Content Model 1 
einsortiert, wobei die Attribute minOccurs und maxOccurs des 
Elements durch das Produkt der entsprechenden Attribute der 
aufgelosten Gruppe und des Elements vor der Umgruppierung er- 
setzt wird. 

2. Vereinf achung einer choice-Gruppe, die ein Element mit dem 
Attributwert minOccurs=0 enthSlt: 

Das Attribut ^minOccurs'' der choice Gruppe wird iinabhSngig 
vom vorhergehenden Wert auf 0 gesetzt, das Element, das einen 
Attributwert minOccurs=0 hatte, wird einen Attributwert mi- 
nOccurs=l zugewiesen . 
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3. Vereinfachxang von verschachtelten choice-Gruppen: 
Enthait eine choice Gruppe eine andere choice Gruppe, die die 
Attributwerte minOccurs=inaxOccurs=l enthait, so wird diese 
choice Gruppe aufgel6st, und der Inhalt direkt der dariiber- 
liegenden choice Gruppe eingegliedert . 

Diese Vereinfachungen sollten bei der Ubertragving des Schemas 
schon am Encoder vorgenommen werden, da die Syntax Tree 
Trans format ionen die Vergabe der normativen Codes beein- 
flusst, und die Kompilieriing des Schemas auf Decoderseite 
vereinfacht wird, wenn das Content-Modell direkt iibernommen 
werden kann. 

Die Vorteile liegen hier darin, dass hierdurch ebenfalls der 
Decoder entlastet wird und das Content-Modell direkt wie es 
bei der Typdecodierung entsteht dem Schema-Compiler zugefiihrt 
werden kann. 



in einer dritten bevorzugten Ausgestaltung der Erfindung 
wird, wie in Figur 2 gezeigt, eine Ersetzung der Zeichenket- 
ten von Typnamen durchgef iihrt . 

Im Attribut "name" und "base" einer Typdef inition, sowie beim 
Attribut "type" einer Element- oder Attributdeklaration tre- 
ten hSufig im Schema die selben Typnamen auf, die als Zei- 
chenkette mehrfach ubertragen werden wUrden. Bei der Codie- 
rung von Typnamen ist es deshalb vorteilhaft anstatt des Na- 
mens nur eine Nummer zu codieren, und separat dazu eine Ta- 
belle, welche die Nxommern wieder zu den tirsprtinglichen Namen 
in Beziehung setzt. Als Nummer bietet sich die Typnummer an, 
die der unten noch nSher erlSuterte Vererbungsbaum des Ur- 
Typs alien complexTypes zuordnet. 

Entsprechendes gilt auch ftir das Attribut „name« von globalen 
Element-Deklarationen und deren Referenzen in wref - 
Attributen und fiir den Namen von Ersetzungsgruppen im Attri- 
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but "substitutionGroup" . In diesen Fallen kann beispielsweise 
der Schemaverzweigungscode SBC der globalen Elemente verwen- 
det werden. 

Hiermit kann Datenvoliimen eingespart werden, da eine wieder- 
holte Ref erenzierung auf den selben Typnamen kompakter darge- 
stellt werden kann lond die Typzuordnungstabelle mit einem 
Standardkompressor besser komprimiert werden kann, da die 
Typnamen nicht liber den Bitstrom verteilt auftreten, sondern 
kompakt in einem zusammenhSngenden Bereich im Bitstrom. 

In einer vorteilhaf ten Ausftihrungsf orm wird eine Liste lamfas- 
send die Typ- Oder Elementnamen oder Namen von Erstetzungs- 
gruppen codiert. Statt Nummern den Namen explizit zuzuordnen, 
wird in dieser Ausftihrungsf orm die Position eines Namen in 
der Liste als Nuramer verwendet. Dies ist vorteilhaf t, da in 
der Liste keine Ntammern mehr codiert werden mtissen \ind somit 
eine effizientere Obertragung gewShrleistet ist. 

In einer vierten bevorzugten Ausgestaltung der Erfindung er- 
folgt eine IJbertragung von Inf ormationen fiir den Vererbungs- 
baum. • 

Jede Typdef inition enthalt im sogenannten Attribut "base", 
falls es vorhanden ist, die Information von welchem Typ er 
vererbt worden ist. Wenn alle diese Inf ormationen fiir ein 
Schema gesammelt werden, ergibt sich eine Baumstruktur, der 
sogenannte Vererbiingsbaum . Der Vererbungsbaum wird beim BiM- 
Codierungsverf ahren verwendet, \m, im Falle einer Typiamandlung 
(type-cast) den neuen Typ des Elements zu ubermitteln. Dabei 
ist der Code der alien vom Basistyp vererbten Typen zugeord- 
net wird, also der sogenannte Type Code, sowie die Lange die- 
ses Codes ftir eine korrekte Dekodierung entscheidend. Die 
LSnge ergibt sich aus der Gesamtzahl aller Typen im Verer- 
bungsbaum unter dem Basistyp. Wenn das Schema vollstandig 
ubertragen wurde lassen sich sowohl die Codes als auch die 
Codeiange auf der Decoderseite eindeutig ermitteln. Wenn aber 
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das Schema auf der Decoderseite nicht vollstandig ist, muss 
noch Zusatz information tibertragen werden, um bereits libertra- 
genen Typen Type Codes zuzuweisen. 

Jeder tibertragene Typ hat im Namensfeld die Nummer des Type- 
code bezogen auf den Urtyp. Damit lasst sich der Typecode der 
abgeleiteten Typen durch einfache Dif f erenzbildung ermitteln, 
Es fehlt noch die Information tlber die MSchtigkeit des durch 
den abertragenen Typen definierten Unterbaiims, und damit die 
LSnge der Typecodes der von diesem abertragenen Typen abge- 
leiteten Typen. Diese Lange lasst sich mit wenigen Bits in 
einem variablen LSngencode ubertragen. 

In Figur 3 ist beispielhaft ein Vererbungsbaum eines Schemas 
mit dem Typ A, von dem weitere Typen abgeleited sind, darge- 
stellt. Dieser Typ bekommt beztiglich des Urtyps "anyType" 
beispielsweise den Typecode 134. Von Typ A sind die Typen AA, 
AB und AC abgeleitet, deren Typecodes beztiglich des Urtyps 
angegeben sind. Um den Typecode bezuglich des Basistyps A zu 
ermitteln, genugt.es vom Typecode des gewiinschten Typs den 
Typecode des Basistyps und eins zu subtrahieren: 

TC Type" "^C Type bzgl. Urtyp~TC Basis typ bzgl. Urtyp ""1 

Die fehlende Infoinnation uber die Lange des Typecodes laJSt 
sich am besten in der Ref erenztabelle als zusStzliche Zahl 
integrieren, 

Um die Information in der Typzuordnvmgstabelle mit einem 
Standardkompressor komprimieren zu kOnnen empfiehlt es sich, 
sie auf ganze Bytes ausgerichtet abzulegen (bytealigned) . Die 
erste Zahl ist eine vluimsbfS Zahl, die die Zahl der Zeilen 
in der Tabelle codiert, dann folgt eine vluimsbfS Zahl, die 
die Nioramer an Bits ftir den Typecode codiert, und eine weitere 
vluimsbfS Zahl, die den Typecode bzgl. des Urtyps selbst dar- 
stellt. Es folgen FtLllbits oder Stuffing Bits um die .Ausrich- 
tung auf Bytegrenzen zu erreichen. 
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WoxmsLt, der Typzuordnungstabelle 


VulmsbfS 


VuimsbfS 


Bit:s 


Zeicben- 


Zeilen 








Lange Type- 
code 1 


Typecode 
1 


0-7 
Full- 
bits 


Name Typ 
1 


Lange Type- 
code 2 


Typecode 
2 


0-7 
Full- 
bits 


Name Typ 
2 


1... 
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Die t)bertrag\ang einer Typzuordnungstabelle ermoglicht es, die 
in einem kodierten Dokixment evtl . vorhandenen Typecodes kor- 
rekt zu decodieren, auch wenn das zugrundeliegende Schema 
nicht Oder noch nicht vollstSndig iibertragen und/oder deco- 
diert wurde. 

Entsprechend sind mit globalen Elementen der globale SBC und 
bei Elementen, die zu einer Ersetzungsgruppe gehoren, der Er- 
setzungscode zu tibermitteln, wobei vorab ftlr alle globalen 
Elemente einmal die globale SBC-L^nge und mit dem Kopfelement 
der Ersetzungsgruppe die LSnge des jeweiligen Ersetziongscodes 
ubermittelt werden. 



Es ist jede Kombination der in den einzelnen Ausgestaltungen 
dargestellten Merkmale bei der Encodierung maglich und kann 
20 in entsprechender Weise auch bei der Decodierung Eingang fin- 
den . 

Das BiM-Verfahren erfordert es, dass das XML-Schema in ein 
Format kompiliert wird, das die Bestiiraniong der Lange der Co- 
25 deworte vind die Auswahl der Datenelemente durch die Werte der 



2002P11264 D: 



10 

Codes gestattet. Dafiir gibt es mehrere Moglichkeiten. Im 
MPEG-7 Standard (ISO/IEC 15938-1:2001 Parti: Systems bzw. 
ISO/IEC 15938-6:2001 Part6 : Ref erenzsof tware) ist fur die De- 
codierung der Nutzlast bzw. Payload ein Model 1 vorgeschlagen, 
das Endliche Zustandsautomaten (Finite State Automatons) ver- 
wendet, und fur die Decodierung eines Context Pfades Codeta- 
bellen, die aus dem Schema generiert werden. 

In einer in Figur 4 dargestellten bevorzugten Ausgestaltung 
des erf indungsgemSSen Decoders wird der Decodiervorgang mit 
einem Bytecodemodell beschrieben, wobei die Schemastruktur in 
ein System aus vemetzten ZustSnden tibersetzt wird, die von 
einem Bytecodeinterpreter BCI abgearbeitet werden, wobei ein 
vom Encoder empfangener Bitstrom BS die Information tiber den 
auszuwahlenden Folgezustand enthalt. Im Unterschied zu dem 
Modell, das im MPEG-7 Standard vorgeschlagen wird, ist das 
Bytecodemodell so angelegt, dass sowohl ein Bitstrom, der ei- 
ne Payload reprasentiert , als auch ein Bitstrom der einen 
Context Pfad darstellt decodiert werden kann. Es ist deshalb 
nicht erforderlich dieselbe Information, die im Schema ent- 
halten ist zweimal ftir die verschiedenen Codierverf ahren am 
Decoder vorzuhalten. Der Interpreter BCI liest die Informati- 
on aus dem Eingangsbitstrom, die ein XML Dokument oder ein 
XML Schema im BiM Format codiert. Diese Information erlaubt 
die Auswahl unter den Folgezustanden des aktuellen Zustandes, 
der im Bytecode abgelegt ist. Die Folgezustande sind inner- 
halb des Bytecodes als Pointer P fest angelegt- Je nach Kon- 
figuration wird ein Pfad, eine Payload oder ein Bytecode aus- 
gegeben . 

Die Decodierung eines Schemas laSt sich mit den oben vorge- 
schlagenen Modif ikationen ebenfalls effizient im Bytecodemo- 
dell realisieren. In diesem Fall wird keine Payload und kein 
Pfad ausgegeben, sondem direkt Bytecode erzeugt, der vom 
Bytecodeinterpreter ftir die Decodierung der entsprechenden 
Typen verwendet werden kann. 
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Der Bytecode setzt sich aus Strukturelementen bzw. den Zu- 
standen zusainmen. Die ZustSnde sind von verschiedenem Typ, 
der mit dem Headerbitf eld des Zustandes identif iziert wird. 
Die Zustande enthalten abhSngig vom Typ verschiedene Informa- 
tionsf elder, die vom Bytecodeinterpreter gelesen, und je nach 
Konfiguration (Payload/ Context Pfad) und aktuellem Zustand 
ausgewertet werden. 

Ftir die Arten von Zust&aden, welche die Scheitiainf onnation 
reprSsentieren sind mehrere Varianten denkbar. Wesentlich 
ist, dass sich durch die ZustSnde des Bytecodemodells alle 
Syntaxelemente eines XML Schemas nachbilden lassen, und dass 
die gesamte Information, die zur ef fizienten Decodierung der 
beiden im MPEG-7 Standard definierten Algorithmen (Context 
Pfad/Payload) notwendig ist, in den ZustSnden zur Verfttgung 
gestellt wird. 

Ein ni6glic3ier Aufbau des Bytecodes wird im folgenden kurz 
dargestellt . 

Arten von Zustanden, tibersicht: 
1. Kopf zustand eines complexTyps 

Der Kopf zustand eines Typs bildet den Einsprxingspiinkt bei der 
Decodierung eines complexType. Er enthSlt den Namen des Typs 
(falls es sich nicht \am einen anonymen Typ handelt) sowie In- 
formation zu Vererbung des Typs (Zeiger auf Basiszustand) so- 
wie Polymorphismus . 

Spezifisch ftir die Payloadcodieinang ist ein Zeiger auf eine 
Liste der Attribute des Typs. Spezifisch fiir die Context Pfad 
Codierung sind Felder mit der Zahl der Kindelemente ftir die 
Context - und Operand Tree Branch Code Tabellen. 
Das letzte informations f eld ist ein Zeiger auf den Folgezu- 
stand, d.h. der erste Zustand, der den Inhalt des complexTy- 
pes reprasentiert (beispielsweise ein Element zustand oder ein 
Auswahlzustand) . 
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Graphische Darstellung eines Kopf zustands : 

Headerbitf eld 
Poin ter auf String mit Name 
Pointer auf Kopfzust. Basistyp 
Pointer auf Vererbungsbaiam 
Zahl der Kinder Context TBC 
Zahl der Kinder Operand TBC 
Pointer auf Folgezustand 



2 . Auswahlzustand 

Ein Auswahlzustand bildet eine choice Gruppe des XML Schemas 
5 nach. Der Auswahlzustand enthait im wesentlichen eine Poin- 
terliste mit mSglichen Folgezustanden. Um den tatsachlich 
ausgewShlten Zustand zu bestiramen muS bei der Decodierung ei- 
ner Payload der Bitstrom gelesen werden. Vom Auswahlzustand 
gibt es zwei Varianten: einen Startzustand, der in die ver- 
10 schiedenen mOglichen Folgezustande verzweigt, sowie einen 
Endzustand, der die Auswahl wieder zusammenf aSt . 

3 • Elementzustand 

Der Elementzustand bildet eine Elementdeklaration in einem 

115 complexType eines Schemas nach. Er enthait einen Pointer auf 
eine Zeichenkette mit dem Namen des Elements, sowie einen 
Pointer auf den Kopf zustand des Typs . Ferner ist evtl . Infor- 
mation liber die Lange des Position Codes (nur fur Pfad- Deco- 
dierung) und fur Substitution Groups vorhanden. 

20 

4 . At tr ibut zustand 

Ein Attributzustand bildet eine Attributdeklaration eines 
Schemas nach. Enthalten sind ein Pointer auf den Namen des 
Attributs, sowie ein Pointer auf den Kopf zustand des simple- 
25 Type des Attributs. 
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5 . Occurrencezustand 

Ein Occurrencezustand bildet die minOccurs und maxOccurs Att- 
ribute nach, die bei einem XML Schema z.B. bei einem Element 
Oder einer Gruppe (choice, sequence, ...) auftreten konnen. 
Er enthalt einen Zeiger auf den Folgezustand, falls eine wei- 
tere Instanz des Elements Oder der Gruppe auftritt, sowie ei- 
nen Zeiger auf den Folgezustand, falls die letzte Instanz der 
Gruppe codiert wurde. Da bei XML Schemas die Moglichkeit be- 
steht, dafi ein Element sich selbst enthait (in der complexTy- 
pe Definition des Elements, oder in einer noch tieferen Ver- 
schachtelung tritt das Element selbst wieder auf) kann auch 
ein Occurrencezustand gleichzeitig mehr als einmal aktiv 
sein, Deshalb ist ein Zeiger auf einen Stapel innerhalb des 
Occurrencezustands erf orderlich, die den aktuellen Zustand 
jeder aktiven Instanz des Occurrencezustands sichert. 

6. Endzustand eines Typs 

Der Endzustand eines Typs enthalt eine Zeigerliste mit alien 
Attributen dieses Typs. Sie ist bei der Decodierung eines 
Pfades erforderlich, da in den Tree Branch Code Tabellen alle 
Attribute am Ende der Tabelle einsortiert werden. Beim errei- 
chen eines Endzustands verzweigt der Bytecodeinterpreter hie- 
rarchisch in das Element, das diesen Typ aufgerufen hat. Die 
entsprechende Information uber das aufrufende Element mufi im 
Arbeitsspeicher des Bytecodeinterpreters abgelegt sein. 

7 . Kopf zustand eines simpleTypes 

Dieser Zustand steuert die Decodierung von Inhalt, d.h. er 
enthalt einen Pointer auf einen Codec, der spezifisch Daten 
des betref fenden Typs aus dem Bitstrom lesen und decodieren 
kann. Der Typ des Codecs ist in einem Inf ormat ions f eld spezi- 
f iziert . 

Die wesentlichen Vorteile des Bytecodemodells im Vergleich 
zum Stand der MPEG-7 Referenz software sind: 
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1. Die Scheitiainformation wird fur beide Codierverf ahren (Con- 



groSte Teil der Information in den Bytecodezustanden sind fur 
beide Verf ahren relevant. Ein kleinerer Teil ist spezifisch 
5 fur jeweils eines der beiden Verf ahren. Deshalb ist die Dar- 
stellung der Schemainf ormation am Decoder sehr kompakt. 

2 . Das Bytecodemodell stellt ein wohldef iniertes Datenf ormat 
far Schemainf ormation zur Verfagung, das sich z.B. auch zum 

10 Vorkompilieren und Abspeichern eignet (anstatt dem XML-Schema 
als Text) . 

3 . Die Ausfuhrung des Bytecodes durch einen Standardprozessor 
kann sehr schnell erfolgen, da das Bytecodemodell den Deco- 

15 diervorgang sehr gut vorbereitet. Alle Information ist direkt 
im Zustand tiber Zeiger verfiigbar, und mufi nicht (wie in 
ISO/IEC 15938-6, Part 6: Ref erenzsof tware) zum Teil erst in 
Listen gesucht werden. 

20 Ein entsprechender Encoder kann auf die selbe Art und Weise 

realisiert werden, wobei er in der Weise invers ist, als dass 
die Zustande von der textuellen Representation des struktu- 
rierten Dokuments gesteuert werden und die ZustandstibergSnge 
die binare ReprSsentation generieren. 



text Pfad / Payload) nur einmal am Decoder reprasentiert . Der 
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Patentanspriiche 

1. Verfahren zum Encodieren von strukturierten Dokumenten, 
insbesondere XML-Dokixmenten, 

bei dem, in einem ersten Schritt, die Struktur des Scheinas 
(XMLS) normiert wird, wobei Gruppen mit Elementen und/oder 
Attributen vereinfacht warden, 

bei dem mit einem Encodierverf ahren (BiM-E) aus dem normier- 
ten Schema in Abhangigkeit eines Metaschemas (SS) ein Tell 
eines Bitstromes oder ein Bitstrom (BSD erzeugt wird. 

2 . Verfahren nach Anspruch 1 , 

bei dem, in einem weiteren Schritt, mit dem selben Encodier- 
verf ahren (BiM-E) aus einem Dokument (XML) in Abhangigkeit 
des Schema (XMLS) ein weiterer Teil des Bitstromes oder ein 
weiterer Bitstrom (BS2)' erzeugt wird. 

3 . Verfahren nach Anspruch 1 oder 2 , 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
der Schemadef inition eines strukturierten Dokiaments derart 
umstrukturiert werden, dass anonyme Typdef initionen (ATO) aus 
den Elementdeklarationen und/oder Attributdeklarationen her- 
ausgelSst werden und einen Namen und/oder Code erhalten, der 
zur Referenzierung bei dem entsprechenden Element verwendet 
wird. 

4. Verfahren nach einem der Anspriiche 1 bis 3, 

bei dem anstatt Typnamen und/oder Elementnamen und/oder Namen 
von Ersetzungsgruppen nur Niommern sowie eine oder mehrere Ta- 
bellen mit einer Zuordnung zwischen Nummern und Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzxingsgruppen 
codiert werden. 

5. Verfahren nach einem der Ansprttche 1 bis 4, 

bei dem eine oder mehrere Listen umfassend die Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen 
sowie die Positionen der Typnamen und/oder Elementnamen 
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und/oder Namen von Ersetzungsgruppen in der Liste anstatt 
Typnamen und/oder Elementnamen und/oder Namen von Ersetzungs- 
gruppen codiert warden. 

6. Verfahren nach einem der vorhergehenden Anspriiche, 

bei dem Informationen ftir den Vererbungsbaiom von Typen, glo- 
balen Elementen und/oder Ersetzungsgruppen codiert werden, 
wobei jeder Typ durch eine Information tiber seineri Typcode 
bezogen auf den Urtyp und der LSnge aller Typcodes, die sich 
auf den beschriebenen Typen beziehen, beschrieben wird 
und/oder jedes globale Element durch die LSnge des SBC xind 
einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
durch die LSnge der Ersetz\ingscodes iind einen Ersetzungscode 
beschrieben wird. 

7. Verfahren zum Decodieren von strukturierten Dokumenten, 
insbesondere XML-Dokumenten, 

bei dem, mit einem Decodierverfahren (BiM-D) aus einem Teil 
eines Bitstromes oder aus einem Bitstrom (BSD in Abhangig- 
keit eines Metaschemas (SS) ein Schema (XMLS) erzeugt wird, 
bei dem im Bitstrom festgestellt wird, ob die Struktur des 
Schemas bereits normiert wurde, wobei Gruppen mit Elementen 
und/oder Attributen vereinfacht wurden, und ftir diesen Fall 
keine Normieriang durchgefiihrt wird und 

8 . Verfahren nach Anspruch 7 , 

bei dem, in einem zweiten Schritt, mit dem selben Decodier- 
verfahren (BiM-D) aus einem weiteren Teil des Bitstromes oder 
einem weiteren Bitstrom (BS2) in Abhangigkeit des Schema 
(XMLS) ein Dokument (XML) erzeugt wird. 

9 . Verfahren nach Anspruch 7 , 

bei dem, wShrend der Decodierxing des Schemas (XMLS) , mit dem 
selben Decodierverfahren (BiM-D) aus einem weiteren Teil des 
Bitstromes oder einen weiteren Bitstrom (BS2) in Abhangigkeit 
des bereits decodierten Teils des Schemas (XMLS) ein Dokxament 
(XML) erzeugt wird. 
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10. Verfahren nach einem der Anspruche 7 bis 9, 

bei dem Elementdeklarationen und/oder Attributdeklarationen 
eines strukturierten Dokuments derart lamstrukturiert werden, 
dass anonyme Typen (ATO) , denen zur Ubertragung ein Name 
und/oder ein Code zugewiesen wurde, in die jeweilige Element- 
deklaration oder Attributdeklaration eingefxigt warden, von 
der der jeweilige anonyme Typ referenziert wird. 

11. Verfahren nach einem der Ansprttche 7 bis 10, 

bei dem aus dem Bitstrom Typnamen und/oder Elementnamen 
und/oder Namen von Ersetzungsgruppen tlber Nummem sowie einer 
Oder mehrer Tabellen mit einer Zuordnung zwischen Niimmern und 
Typnamen xind/oder Elementnamen und/oder Namen von Ersetzungs- 
gruppen decodiert werden. 

12. Verfahren nach einem der Anspruche 7 bis 11, 

bei dem aus dem Bitstrom Typnamen und/oder Elementnamen 
und/oder Namen von Ersetzungsgruppen liber eine oder mehrere 
Listen umfassend die Typnamen und/oder Elementnamen und/oder 
Namen von Ersetzungsgruppen sowie die Positionen der Typnamen 
und/oder Elementnamen und/oder Namen von Ersetzungsgruppen in 
der Liste decodiert werden. 

13 . Verfahren nach einem der Anspruche 7 bis 12, 

bei dem ziinSchst aus dem Bitstrom Inf ormationen fiir einen 
Vererbungsbaum von Typen und/oder globalen Elementen und/oder 
Ersetzungsgruppen decodiert werden, wobei jeder Typ durch ei- 
ne Information tiber seinen Typcode bezogen auf den Urtyp und 
der LSnge aller Typcodes, die sich auf den beschriebenen Ty- 
pen beziehen, beschrieben wird 

und/oder jedes globale Element durch die LSnge des SBC \ind 
einen SBC und/oder jedes Element in einer Ersetzungsgruppe 
durch die LSnge der Ersetzungscodes und einen Ersetzungscode 
beschrieben wird. 
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14. Vorrichtung ziim Encodieren von strukturierten Dokiamenten, 
insbesondere XML-Dokximenten, 

bei der eine Encodiereinheit vorhanden ist, 

die, in einem ersten Schritt, die Struktur des Schemas (XMLS) 
normieren, wobei Gruppen mit Elementen und/oder Attributen 
vereinfacht werden, 

die aus dem normierten Schema in AbhSngigkeit eines Metasche- 
mas (SS) einen Teil eines Bitstromes oder einen Bitstrom 
(BSD erzeugen. 

15. Vorrichtung ziim Decodieren von strukturierten Dokumenten, 
insbesondere XML-Dokumenten, 

bei der eine Decodiereinheit vorhanden ist, 

die, aus einem Teil eines Bitstromes oder aus einem Bitstrom 
(BSD in Abhangigkeit eines Metaschemas (SS) ein Schema er- 
zeugt, 

bei der im Bitstrom festgestellt wird, ob die Struktur des 
Schemas (XMLS) bereits normiert wurden, wobei Gruppen mit 
Elementen und/oder Attributen vereinfacht wurden, und fiir 
diesen Fall keine Normierung durchgeftihrt wird. 

16. Vorrichtung nach Anspruch 14, 

bei der die Encodiereinheit einen konf igurierbaren Bytecode- 
interpreter aufweist, der Inf ormationen in einem Bytecode in- 
terpretiert und der, abhSngig von der Konf igurierung, aus dem 
strukturierten Dokument basierend auf einem Bytecode einen 
Code erzeugt, der einen Pfad oder eine Nutzlast reprasen- 
tiert . 

17. Vorrichtung nach Anspruch 15, 

bei der die Decodiereinheit einen konf igurierbaren Bytecode- 
interpreter aufweist, der durch Inf ormationen aus dem Bit- 
strom konf igurierbar ist und der, abhangig von der Konf igu- 
rierung, aus dem Bitstrom basierend auf einem Bytecode einen 
Pfad, eine Nutzlast oder einen Bytecode erzeugt. 
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Zusammenfassung 

Verfahren und Vorrichtungen z\im Encodieren/Decodieren von 
strukturierten Dokiomenten, insbesondere von XML-Dokumenten 

Die Erfindung besteht im wesentlichen darin, mit einem Enco- 
dierverfahren aus einem Schema in Abhangigkeit eines Meta- 
schemas einen Bitstrom Oder einen Teil eines Bitstromes zu 
erzeugen, wobei eine oder mehrere der folgenden Optimierungen 
durchgefxihrt werden: 

- Abspaltung von anonymous Types aus Elementdeklarationen und 
Attributdeklarationen, und Codierung als eigener Typ, dessen 
Typdef inition als Top-Level Element in der Schema Definition 
instantiiert xst, 

- Normalisierung der Syntax Trees auf Encoderseite, 

- Ersetzung der Zeichenketten von Typnamen 

- Ubertragung von Inf ormationen ftir den Ver erbungsbaum . 
Die Dekodierung berucksichtigt diese Optimierungen und er- 
zeugt umgekehrt aus dem Bitstrom ein Schema. 
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<complex1>pe name="42"> 
<element type==''15"/> 
<element type="6"/> 
<attribute type="72"/> 

<complexType/> 

<complexType name=''13"> 
<element type="42"/> 
<element type«"6"/> 
<attribute type=''14"/> 

<complexTypeA> 



Typ- 
nummer 


Typname 


42 


PersonDescriptoiType 


15 


ContactType 
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Curriculum VitaeTvDe 
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NameType 







anyType 
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